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Організація програмного орфокоректора 
для текстоорієнтованої 
інформаційно-аналітичної системи 


У статті досліджується проблема нарощення ефективності текстоорієнтованих інформаційно-аналітичних 
систем за рахунок підвищення точності та швидкості попередньої орфокорекції природномовних 
текстових даних. Пропонується орієнтована на інтегрування до складу інформаційно-аналітичної 
системи архітектура програмного агента-орфокоректора, який реалізує комбінацію контекстно- 
асоціативного та імовірнісного підходів до автоматизованого виправлення орфографічних помилок. 


Вступ 


В умовах суспільства, заснованого на знаннях, важливим чинником успішної 
професійної діяльності практично в будь-якій сфері стає можливість оперативного отри- 
мання з глобального електронного інформаційного простору достовірної інформації, яка 
чітко відповідає критерію поточного пошукового інтересу людини-фахівця |1|. При 
цьому слід відзначити, що з усіх типів даних найбільш актуальним в переважній біль- 
шості випадків сьогодні Є природномовний текст. Однак внаслідок швидкого розростання 
глобального електронного текстомісткого інформаційного ресурсу, а також з огляду на 
його об'єктивну гетерогенність, неструктурованість, нестабільність та несистематизова- 
ність, традиційні засоби спрямованого доступу до інформації на зразок Піетеї-каталогів, 
стандартних інформаційно-пошукових систем тощо тепер вже неспроможні задоволь- 
нити надзвичайно жорстким вимогам користувачів. У зв'язку з цим все більшої попу- 
лярності на світовому ринку ГТ-продуктів набувають програмні засоби моніторингу 
електронного текстового ресурсу за змістом, семантично-орієнтованого пошуку та інте- 
лектуального аналізу текстових даних - т.з. інтелектуальні інформаційно-аналітичні 
системи (ТАС) |2|. Залежно від галузі застосування функціональність таких систем може 
суттєво варіювати |3| щодо конкретного набору аналітичних операцій, котрі реалізуються 
відповідною системою, виходячи, зокрема, з таких потенційних можливостей |41: 

1. Реалізація повного спектра пошукових операцій: повнотекстовий пошук; по- 
шук за атрибутами; семантичний пошук; квазісемантичний пошук (із залученням те- 
заурусів, онтологій тощо); асоціативний пошук тощо; наявність механізмів ранжування 
пошукового відгуку (як за релевантністю, так і за пертинентністю); наявність механіз- 
мів логічної компенсації дублювань у пошуковому відгуку. 

2. Реалізація функцій змістовного аналізу текстових даних: структурний аналіз як 
структурованих, так і неструктурованих текстових інформаційних об'єктів; автоматична 
класифікація текстових інформаційних об'єктів за відповідними ознаками (тематика, змі- 
стовна тональність, авторство та інші атрибути); автоматична кластеризація текстових ін- 
формаційних об'єктів; автоматизоване виділення атрибутів текстових інформаційних 
об'єктів (змістовна тональність, персоналії, асоціативні зв'язки з іншими інформаційними 
об'єктами тощо); автоматизоване анотування текстових інформаційних об'єктів; автома- 
тизоване реферування текстових інформаційних об'єктів; попереднє виявлення логічних 
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взаємозв'язків та залежностей на змістовному рівні, виявлення причинно-наслідкових ло- 
гічних зв'язків тощо; оцінка рівня оригінальності тексту (виявлення плагіату, тавтології 
тощо); комп'ютерний переклад та інформаційна підтримка навчального перекладу (слов- 
ники, засоби ідентифікації граматичних конструкцій, ідіоматичних зворотів тощо). 

3. Спрямований моніторинг інформаційного ресурсу, зокрема з метою опера- 
тивного виявлення оновлень. 

4. Можливість логічного упорядкування та агрегування гетерогенного тексто- 
місткого інформаційного ресурсу. 

5. Компенсація на логічному рівні дублювань у текстомістких інформаційних 
об'єктах. 

Однак незаперечним є той факт, що обов'язковою умовою ефективної роботи прак- 
тично будь-яких засобів аналітичної обробки електронного природномовного тексту є 
адекватна попередня орфокорекція останнього (51. 

Таким чином, виходячи із наведених вище міркувань, метою даного дослідження 
стало підвищення сумарної ефективності автоматизованого аналізу текстових природ- 
номовних електронних інформаційних об'єктів інтелектуальними інформаційно-аналі- 
тичними системами за рахунок інтегрування до їх складу програмного агента-орфоко- 
ректора підвищеної швидкодії та точності, архітектура котрого розробляється. 

Відповідно до поставленої мети задачами дослідження є: 

- визначення концепції побудови програмного агента-орфокоректора, придат- 
ного до інтегрування в програмне середовище текстоорієнтованої інформаційно-ана- 
літичної системи в ході функціонального масштабування останньої; 

- алгоритмізація функціонування програмного агента-орфокоректора; 

- розробка логічної структури програмного забезпечення агента-орфокоректора; 

-- аналіз варіантів архітектурної організації програмного агента-орфокоректора. 


Концепція побудови програмного орфокоректора 


У статті розглядається питання побудови програмного орфокоректора, який вхо- 
дить до складу текстоорієнтованої ІАС. Для підтримки конкурентоспроможності таких 
систем їх розробляють як відкритий програмний продукт, придатний до масштабування. 
В основу реалізації ТАС часто буває покладений агентоорієнтований підхід, згідно з яким 
орфокоректор, що входить до складу відкритої системи, повинен бути побудований як 
програмний агент, а сама система при цьому відіграє роль зовнішнього середовища |6. 

Аналіз кола задач орфокоректора, а також вибір критеріїв ефективності роботи 
даного програмного продукту, як точності та швидкості виправлення помилок |71, 
визначили доцільність проектування агента-орфокоректора реактивним по відно- 
шенню до зовнішньої ІАС. Для забезпечення продуктивної роботи коректора пропо- 
нується обробляти вхідні дані як за допомогою використання підключених лінгвіс- 
тичних ресурсів, так і на основі накопичення власної статистики сумісного викори- 
стання слів у внутрішній базі даних (БД) |8|. Кожного разу, коли агенту надходить 
команда на виправлення спотвореного слова, слід проводити оновлення вмісту БД на 
основі отриманої інформації. Таким чином, з кожним наступним виправленням агент 
зможе збільшувати точність своєї роботи за рахунок використання статистичної ін- 
формації, взятої з більшої кількості текстів. 


Алгоритм роботи агента-орфокоректора 


З огляду на вищезазначене, процес роботи орфокоректора, який функціонує на 
основі результатів аналізу статистично-семантичних даних, пропонується розділити 
на два етапи - етап тренування, який виконується одноразово перед початком роботи 
агента, та робочий етап. 
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Етап тренування: 

|Крок 1) Підрахувати кількість входжень кожного слова до тренувального тексту. 

|Крок 2| Для кожного слова підрахувати, скільки разів воно зустрічається по- 
руч з кожним із слів, які знаходяться на відстані «К слів від даного. 

|Крок 3| Видалити дані щодо слів, які є неінформативними і не можуть допо- 
могти при виборі виправлення, та зберегти статистичні дані щодо всіх інших слів. 

Робочий етап: 

|Крок 1) Отримати від ІАС спотворене слово та його контекст. 

|Крок 2| Перевірити контекст на наявність помилок чи слів зі «стоп-списків». 
Якщо виявлено помилки, але контекст не можна перевизначити, робота коректора 
закінчується. 

|Крок 3| Сформувати множину гіпотез виправлення спотвореного слова зі слів, 
що знаходяться на відстані редагування 1 - 2 від нього та містяться в словнику. 

|Крок 4| На основі статистичних даних для кожного слова с, із сформованої 


множини визначити значення М; - загальну кількість входжень слова-гіпотези с; в 
тренувальний текст, та т; - число входжень слова с; в текст в межах ЕК слів кон- 
тексту спотвореного слова. 

|Крок 5) Відкинути контекстні слова, які не допомагають при виборі виправ- 
лення. 

|Крок 6| Для кожного слова с; з множини гіпотез обчислити ступінь семан- 
тичної близькості с; та контексту спотвореного слова (К; ). 


|Крок 7) Для кожного слова с; обчислити 5, з Тк Рісдхчо де Р(с,) - ймо- 
І І 
вірність появи слова с; в тексті, яка обчислюється як відношення кількості разів 
появи слова с; в тексті до числа слів в останньому. 
|Крок 8) Вибрати з множини гіпотез слово с;, для якого значення виразу 5; є 
максимальним. Це слово будемо вважати найімовірнішим варіантом виправлення. 


Структура агента-орфокоректора 


Для забезпечення можливості підключення орфокоректора до існуючих відкри- 
тих систем автоматизованої обробки текстів доцільним є наділити його властивостя- 
ми програмних агентів |9|. Тому у структурі орфокоректора передбачимо складові, 
які реалізують функції виправлення помилок, та складові, що виконують характерні 
для агента функції взаємодії з іншими модулями ІАС (рис. 1). Модулі, які відпові- 
дають за виправлення спотвореного слова, доцільно включити до складу виконав- 
чого блоку агента |9|, (10). При цьому до бази даних слід додати таблиці лексико- 
семантичного словника та статистичні дані про взаємне використання слів. Виконання 
функцій взаємодії агента-коректора та інших модулів ТАС покладемо на інтерфейс із 
зовнішнім середовищем та координатор дій. Нижче більш детально розглянемо 
основні функції структурних елементів орфокоректора. 

Координатор дій отримує розібрані вхідні повідомлення від модуля обробки вхіо- 
них та вихідних повідомлень. Якщо вхідна команда є службовою, модуль оновлює 
параметри внутрішнього стану агента. Якщо вхідна команда є командою на ко- 
рекцію слова, координатор отримує спотворене слово та його контекст. Також мо- 
дуль керує чергою слів на виправлення, яка необхідна тоді, коли приходить команда 
на виправлення слова, а виконавчий блок зайнятий виправленням попереднього слова. 

Принцип роботи черги такий: при надходженні команди на виправлення слова 
модуль аналізу ситуації перевіряє значення спеціального параметра, що характери- 
зує стан виконавчого модуля. Якщо виконавчий модуль вільний, модуль аналізу си- 
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туації передає спотворене слово та його контекст напряму виконавчому модулю. 
Якщо ж виконавчий модуль в момент надходження команди на виправлення зайня- 
тий, модуль аналізу ситуації додає відповідну команду до черги повідомлень. При цьо- 
му виконавчий модуль має спеціальний лічильник, який відображує кількість команд 
у черзі. Цей лічильник автоматично збільшується на одиницю при вставці команди в 
чергу та зменшується при вилученні команди виконавчим модулем для її обробки. 
Слід зазначити, що використовувати чергу повідомлень доцільно, по-перше, для ви- 
ключення випадків, коли агент чекає виправлення слова і через це не може прийняти 
чергову команду від зовнішнього середовища, а по-друге - для того, щоб виконавчий 
модуль (якщо він вільний) постійно не перевіряв, чи є необроблені команди на корек- 
цію слів, а мав відповідні дані через прийняття спеціального сигналу від модуля ана- 
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Рисунок І - Узагальнена структурна схема агента-орфокоректора 
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Внутрішній стан агента визначається станом його модулів; переліком підклю- 
чених словників; критеріями оцінки ефективності роботи агента; даними про слова, 
які не вдалося виправити. Ця інформація не оновлюється при кожній ініціалізації 
агента, тому її необхідно зберігати у БД агента. 

Виконавчий модуль призначений для генерації гіпотез виправлення спотворе- 
ного слова, а також для відбору з них слів, які є найімовірнішими варіантами виправ- 
лення. Він обробляє статистичні дані про гіпотези виправлення, які були збережені 
на етапі тренування, а також оцінює міру їх семантичної близькості до контексту. 

Лінгвістичні ресурси. До набору програмних словникових ресурсів, які викори- 
стовує агент-коректор, не потрібно включати всі словники, які можуть знадобитися 
при роботі з різними типами текстоорієнтованих ІАС, адже певна їх частина завжди 
буде невикористана. Пропонується ввести до структури орфокоректора лише необ- 
хідний мінімум словникових ресурсів, які могли б підтримувати його працездат- 
ність, а складні та масштабні словники підключати як компонент ІАС, до якого ма- 
тимуть доступ й інші модулі системи. Як семантичний ресурс доцільно використо- 
вувати словник, який має формат, подібний до словника Й/огаМеї (11), оскільки він є 
безкоштовним, легко локалізується, має просту структурну організацію. 


Альтернативні варіанти реалізації агента-орфокоректора 


Реалізація агента в багатопроцесорному середовищі. Якщо текстоорієнтована 
ІАС, яка слугує зовнішнім середовищем для агента, функціонує на багатопроцесор- 
ному комп'ютері, доцільним є забезпечення паралельного отримання та обробки орфо- 
коректором непов'язаних між собою статистичних та семантичних даних. У такому 
випадку після формування множини гіпотез виправлення координатор дій буде ство- 
рювати два окремі незалежні потоки і в цих потоках запускати отримання та обробку 
статистичної та семантичної інформації. Результати своєї роботи потоки передавати- 
муть основному потоку, в якому формується множина остаточних варіантів виправ- 
лення. Таким чином, за рахунок розпаралелювання незалежних процесів можна під- 
вищити швидкодію орфокоректора в багатопроцесорному середовищі. 

Реалізація орфокоректора у формі сукупності агентів. Якщо ТАС функціонує в 
багатокомп'ютерному середовищі (наприклад, лінгвістичні ресурси такої системи роз- 
ташовані на різних комп'ютерах), реалізація коректора у вигляді реактивного агента 
може знизити ефективність його роботи, оскільки швидкість виправлення помилок 
зменшиться через втрату часу на передачу даних каналом зв'язку. У такому випадку 
доцільно розробити компоненти, які відповідають за отримання і обробку статистич- 
них та семантичних даних, у формі допоміжних агентів, кожен з яких виконуватиме 
свій етап роботи. Схема подібної реалізації агента-орфокоректора зображена на рис. 2. 

Текстоорієнтована ТАС, зображена на рис. 2, має розподілену структуру. Модулі 
системи (М), М», ..., М,) функціонують не на одному комп'ютері, а на багатьох. До- 
поміжні агенти 4єепіда Та А?епігт, ЯКІ Відповідають відповідно за обробку статистичної 
інформації та за роботу із семантичними ресурсами, розташовуються окремо від головно- 
го агента А?епіуаі, КОТриЙ координує дії допоміжних агентів. Кожен з допоміжних агентів 
в разі необхідності має змогу використовувати ресурси системи через головний агент. 

При такій організації в структурі агента, до якого звертається ТАС, мають зали- 
шитися лише складові, які безпосередньо відповідають за виправлення помилок, такі 
як модуль обчислення значення виразу 5; та формувач остаточних варіантів виправ- 
лення. Такий агент відіграватиме роль супервізора по відношенню до допоміжних 
агентів: він буде керувати роботою цих агентів, а також здійснюватиме формування 
будь-яких повідомлень до цих елементів орфокоректора. При цьому взаємодія аген- 
та-супервізора із системою обробки текстів має залишитися на реактивному рівні. 


188 «Искусственньй интеллект» 3"2010 


Організація програмного орфокоректора... 3Г 


Внутрішні 
ресурси агента 


Агент- 
орфокоректор 
(Аєепіппаїп) 


Арепіет 


Ресурси ІАС 


Рисунок 2 - Схема організації агента-коректора у формі сукупності агентів 


Якщо говорити про розташування структурних елементів такого розподіленого 
орфокоректора, то агент-супервізор доцільніше розташовувати на головному сервер- 
ному комп'ютері, на якому функціонують основні модулі системи обробки текстів. 
Тут справа в тому, що управляючий агент постійно взаємодіє із системою, отримуючи 
від неї команди на виправлення слів та надаючи варіанти виправлення, 1 при його 
розміщенні на деякому віддаленому комп'ютері неодмінно будуть втрати часу на 
передачу цих команд, що є неприпустимим. 

Що стосується допоміжних агентів, то їх доцільно розташовувати на тих серверах 
або робочих станціях, на яких розташовуються відповідні сховища даних, з якими пра- 
цюють такі агенти (мова йде про базу даних статистичної інформації та про базу даних, 
в якій зберігається лексико-семантичний словник). Якщо таке розташування з будь-яких 
причин неможливе, необхідно намагатися розмістити допоміжні агенти таким чином, 
щоб між робочими станціями, на яких вони розташовані, та серверами з базами даних 
було якомога менше транзитних комп'ютерів. Таке розташування допоміжних агентів 
дозволить знизити витрати часу на отримання необхідної інформації з баз даних. 


Висновки 


В роботі аргументовано, що якісна робота текстоорієнтованих інтелектуальних 
ІАС можлива за умови наявності в їх складі ефективних засобів корекції орфогра- 
фічних помилок. 

Проаналізовано концепцію інтегрування програмного агента-орфокоректора до 
середовища відкритої текстоорієнтованої інтелектуальної ІАС. 

Розроблено спосіб структурно-алгоритмічної організації програмного агента- 
орфокоректора, що реалізує комбінований контекстно-асоціативний метод виправ- 
лення орфографічних помилок з врахуванням накопичених під час фази тренування 
статистичних даних щодо сумісного використання слів, а також вмісту семантичних 
словникових ресурсів. 

Запропоновано два варіанти організації агента-орфокоректора на архітектурному 
рівні: у формі єдиної повнофункціональної сутності та у формі сукупності вузько- 
функціональних програмних агентів. 
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П.С. Гончаренко, Т.Н. Заболотняя, А.Ю. Михайлюк, В.П. Тарасенко 

Организация программного орфокорректора для текстоориентированной информационно- 
аналитической системьі 

В статье исследуєтся проблема наращивания зффективности текстоориентированньх информационно- 
аналитических систем за счет повьшения точности и скорости предварительной орфокоррекции 
естественноязьтковьх текстовьтх данньх. Предлагаєтся ориентированная на интегрированиє в состав 
информационно-аналитической системьтг архитектура программного агента-орфокорректора, которьій 
реализуєт комбинацию контекстно-ассоциативного и вероятностного подходов к автоматизированному 
исправлению орфографических ошибок. 
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